查看原文
其他

图解 | Linux内存回收之LRU算法

The following article is from Linux内核那些事 Author songsong001

内存 是操作系统非常重要的资源,操作系统要运行一个程序,必须先把程序代码段的指令和数据段的变量从硬盘加载到内存中,然后才能被运行。如下图所示:

但内存资源是有限的,随着系统中运行的进程越来越多,系统中可用的内存就会越来越少。那么,当可用内存不足时,Linux 内核是怎么处理的呢?

本文将会介绍,当可用内存不足时,Linux 内核的处理方式。

一、内存不足的处理方式

我们思考一下,当系统的可用内存不足时,进程继续申请内存会发生什么事情?

当系统的可用内存不足时,内核为了保证进程有足够的内存可用,将会对内存进行回收工作。内存回收工作主要包括以下几个步骤:

  • 内核为了加速某些操作(如文件 I/O),会对操作的结果进行缓存(如文件页缓存),而缓存使用的内存是可以被回收的。所以,当可用内存不足时,首先会回收内核中的缓存。
  • 如果回收内核缓存后,系统的可用内存仍然处于不足。那么,内核将会触发 swap 机制。swap 机制会将某些进程所占用的内存交换(写入)到硬盘中,然后释放这些内存,从而让系统有更多可用的内存。本文将会重点介绍 swap 机制。
  • 如果触发 swap 机制后,系统的可用内存仍不能满足系统需求,那么将会触发 OOM(Out Of Memory) 机制。OOM 机制将会挑选一些进程,然后将这些进程杀死来,从而获取更多可用内存。

由于回收内存的方式有三种,所以本文重点以 swap 机制作为分析对象,来介绍当内存不足时,内核是怎么进行内存回收工作的。

二、swap机制原理

在分析 swap 机制的实现前,我们先来介绍一下 swap 机制的原理。

本文使用 Linux-2.6.23 版本内核。

swap 这个单词是 交换 的意思,顾名思义就是把某些进程所占用的内存交换(写入)到硬盘,然后把内存释放给操作系统,这样操作系统就有更多可用的内存。如下图所示:

由于 swap 机制的本质是将进程所占用的内存写入到硬盘中,然后释放这些内存。那么,就涉及到应该将哪些进程的内存交换到硬盘中。

每个进程都不希望自己占用的内存被交换到硬盘中,因为内存被交换到硬盘后,如果进程要使用到这些内存时,必须先将这些内存从硬盘中加载到内存中,才能继续使用,这样进程的性能将会大打折扣。正因为这个原因,内核必须提供一种最优的方案来挑选一些内存交换到硬盘,并且对进程性能的影响降到最小。

由于进程的内存空间分为多个段,如 代码段数据段mmap段堆段 和 栈段 等。那么,哪些段的内存会被交换到硬盘中呢?

答案就是:所有段的内存都有可能交换到硬盘。不过对于 代码段 和 mmap段 这些与文件有映射关系的内存区,只需要将数据写回到文件即可(由于代码段的内容不会改变,所以不用进行回写)。

而对于 数据段堆段 和 栈段 这些段中的内存页,由于没有与文件进行映射(称为 匿名内存页),所以内核必须提供一个文件(或硬盘分区)来存储这些内存页的数据,这个文件(或硬盘分区)被称为 交换分区

从上面的分析可以得出两个重要的信息:

  • 匿名内存页:没有与任何文件进行映射的内存页。
  • 交换分区:用于存储匿名内存页数据的文件或硬盘分区。

下面主要介绍当系统内存不足时,内核是怎样将进程的 匿名内存页 写入到 交换分区 中,并且回收这些 匿名内存页 的。

1. LRU 内存淘汰算法

当系统内存不足,并且触发 swap机制 时,内核应该选择哪些 匿名内存页 写入到 交换分区 中呢?如果随机选择一些 匿名内存页 写入到 交换分区,就有可能出现如下问题:

把某个进程的 匿名内存页 写入到 交换分区 后,进程又马上访问这个内存页,从而又要把这个内存页从 交换分区 中读入到内存中。这样只会增加系统的负荷,并且不能解决系统内存不足的问题。

为了解决这个问题,Linux 内核引入了 LRU内存淘汰算法,用过 Memcached 或者 Redis 的同学应该都了解过 LRU算法。当系统内存不足时,Memcached 和 Redis 都是使用 LRU算法 来淘汰内存的。

LRU(Least Recently Used) 中文翻译是 最近最少使用 的意思,其原理就是:当内存不足时,淘汰系统中最少使用的内存,这样对系统性能的损耗是最小的。

为了实现 LRU算法,内核维护了两个双向链表:active_list 和 inactive_list。下面介绍下这两个链表的作用:

  • active_list:活跃内存页链表。也就是说进程会经常访问这个链表中的内存页,所以进行内存淘汰时,不应该淘汰这个链表中的内存页。
  • inactive_list:不活跃内存页链表。也就是说进程很少会访问这个链表中的内存页,所以进行内存淘汰时,主要淘汰这个链表中的内存页。

在 Linux 内核中,每个 内存区(zone) 都会维护着一个 active_list 和一个 inactive_list内存区 是内存管理中的一个对象,为了描述更加清晰,我们暂时当成内核中只有一个内存区,也就是说暂时认为内核中只维护着一个 active_list 和一个 inactive_list。如下图所示:

另外,每个内存页都有个 PG_referenced 的标志位,表示此内存页是否被访问过,这个标志位在内存回收过程中起着至关重要的作用。

当某个进程申请一个匿名内存页时,内核会把这个内存页添加到 活跃内存页链表(active_list) 中,并且将 PG_referenced 标志位设置为 0。如下图所示:

而当某个匿名内存页被进程访问时,根据内存页所在的 LRU 链表作不同的操作:

  • 如果内存页原来处于 活跃链表 中,那么就会把此内存页的 PG_referenced 设置为 1。
  • 如果内存页原来处于 非活跃链表 中,并且 PG_referenced 为 0。那么将内存页的 PG_referenced 标志位设置为 1。
  • 如果内存页原来处于 非活跃链表 中,并且 PG_referenced 为 1。那么将会把内存页从 非活跃链表 移动到 活跃链表,并且将 PG_referenced 设置为 0。

下图展示了上述各种情况的流转过程:

而当系统内存不足时,需要进行内存淘汰过程。内存页淘汰过程与上述过程刚好相反,下面介绍一下内存页淘汰的过程。

内存淘汰时,只能从 非活跃链表 中进行淘汰,淘汰过程如下:

  • 从 非活跃链表 的尾部开始进行内存淘汰,如果内存页的 PG_referenced 标志位为 1 时,将跳过此内存页,并且将此内存页的 PG_referenced 标志位设置为 0。
  • 如果内存页的 PG_referenced 标志位为 0 时,那么将此内存页写入到 交换分区 中,并且将所有与此内存页的映射解除绑定,然后释放此内存页。

上述过程是由 shrink_inactive_list 函数完成,如下图所示:

另外,处于 活跃链表 的内存页也有衰退的过程,衰退过程如下:

  • 如果内存页的 PG_referenced 标志位为 1,那么衰退过程将会把此内存页的 PG_referenced 标志位设置为 0。
  • 如果内存页的 PG_referenced 标志位为 0,那么衰退过程将会把此内存页移动到 非活跃链表 中。

上述过程是由 shrink_active_list 函数完成,如下图所示:

2. LRU算法状态流转

我们最后以一张状态流转图来描述 LRU 算法的过程:

三、总结

本文主要介绍了 Linux 内核内存回收过程中使用的 LRU 算法的原理。


后台回复“加群”,带你进入高手如云交流群


推荐阅读:

深入理解 Cilium 的 eBPF 收发包路径

Page Cache和Buffer Cache关系

深入理解DPDK程序设计|Linux网络2.0

一文读懂基于Kubernetes打造的边缘计算

网络方案 Cilium 入门教程

聊聊非阻塞I/O编程

Linux内核调度器源码分析

Docker  容器技术使用指南

Linux下的一些资源限制

Linux 系统安全强化指南

云原生/云计算发展白皮书(附下载)

Linux 常用监控指标总结

Kubernetes 集群网络从懵圈到熟悉

使用 GDB+Qemu 调试 Linux 内核

防火墙双机热备

常见的几种网络故障案例分析与解决

Kubernetes容器之间的通信浅谈

kube-proxy 如何与 iptables 配合使用

完美排查入侵

QUIC也不是万能的

超详干货!Linux环境变量配置全攻略

为什么要选择智能网卡?

网络排错大讲解~

OVS 和 OVS-DPDK 对比

微软出品的最新K8S学习指南3.0下载


喜欢,就给我一个“在看”


10T 技术资源大放送!包括但不限于:云计算、虚拟化、微服务、大数据、网络、Linux、Docker、Kubernetes、Python、Go、C/C++、Shell、PPT 等。在公众号内回复「1024」,即可免费获取!!

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存